Банк нуклеотидных последовательностей EMBL

1-а. Последний релиз проиндексирован 7 сентября 2009 года и содержит 108577013 записей.

2-b. "Data Class" банка EMBL.

ANN: Constructed sequence with annotation
-
CON: Constructed sequence
-
EST: Expressed Sequence Tag
62846990
GRV: Genome Reviews
-
GSS: Genome Survey Sequence
25905073
HTC: High Throughput cDNA sequencing
549753
HTG: High Throughput Genome sequencing
142473
MGA: Mass Genome Annotation
-
PAT: Patent
10439165
SET: Project set (EMBL WGS Masters only)
-
STD: Standard
7253026
STS: Sequence Tagged Site
1310171
TPA: Third Party Annotation
6520
TSA: Transcriptome Shotgun Assembly
123842
WGS: Whole Genome Shotgun
-

1-с. Cписок разделов ("Divisions") банка EMBL .

ENV: Environmental Samples (образцы из окружающей среды) 4145029
FUN: Fungi (Грибы) 3942084
HUM: Human (Человек) 12841544
INV: Invertebrates (Беспозвоночные) 15518735
MAM: Other Mammals (Остальные млекопитающие) 9429823
MUS: Mus musculus (Домовая мышь) 7424621
PHG: Bacteriophage (Бактериофаги) 5865
PLN: Plants (Растения) 33806044
PRO: Prokaryotes (Прокариоты) 909986
ROD: Rodents (Грызуны) 2261678
SYN: Synthetic (Искусственно синтезированные) 2671622
TGN: Transgenic (Трансгенные) 265465
UNC: Unclassified (Неклассифицированные) 3945859
VRL: Viruses (Вирусы) 827405
VRT: Other Vertebrates (Другие позвоночные) 10581253

1-d. Диаграмма, показывающая сколько стандартных записей (класса STD) появилось в каждом из 3 разделов HUM, FUN, MAM за май 2008 и 2009 годов.

май.08 май.09
Hum 23376 1316
Fun 4704 4350
Mam 2512 1870

Количестыо записей уменьшилось во всех трех разделах. Наиболее сильный спад наблюдается в разделе человека.

2. Характеристика гена SMRNP.

Направление прямое.
Число кодирующих последовательностей 
5
Длина первого кодирующего участка: 
36
Длина последнего кодирующего участка: 
126
Длина первого интрона: 
612
Длина последнего интрона:
109

3. Самый длинный кодирующий участок равен 126 нуклеотидам (от 146139 до 146264).

seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 146139
End at position [end]: 146264
Reverse strand [N]: N
output sequence(s) [ba000025.fasta]: long

Для поиска я выбрал программу BlastX. Файл Long с вырезанным участком последовательности я загрузил через Upload File. После чего выбрал базу данных SwissProt и начал поиск.

Всего было найден о 3 белка. Лучший найденный белок LSM2 (U6 small nuclear RNA associated) с e-value=5e-08. Участок белка с 65 по 95 аминокислотных остатков соответствует экзону.

4. В Записи Swiss-Prot описывающей белок P0A935 были взяты ссылки на банк EMBL.

Идентификатор записи EMBL 
Тип молекулы 
Класс данных 
Раздел EMBL 
Длина последовательности 
Дата создания документа 
Описание
AP009048
genomic DNA
STD
PRO
4646332
22-JAN-2006
Escherichia coli str. K12 substr. W3110 DNA, complete genome. 
U00096
genomic DNA
STD
PRO
4639675
23-FEB-2006
Escherichia coli str. K-12 substr. MG1655, complete genome. 
U29581
genomic DNA
STD
PRO
71128
05-JUL-1995
Escherichia coli K-12 genome; approximately 63 to 64 minutes. 
U32224
genomic DNA
STD
PRO
1405
06-SEP-1995
Escherichia coli membrane-bound lytic transglycosylase A precursor (mltA) gene, complete cds. 

Как видно из таблицы все последовательности относятся к классу STD микроорганизма Escherichia coli. Первые две записи AP009048 и U00096 описывают полный геном Escherichia coli, поэтому они имеют такую большую длину последовательности. Последняя последовательность U32224 кодирует mltA. Дата создания полного генома позже даты создания определенных последовательностей кодирующих белки.